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(57) Abstract: The invention concerns a method for thematic classification of documents, in particular for constituting or updat- 
ing thematic databases (42) for a search engine, comprising steps which consist in: selecting documents representing each theme; 
identifying in the selected documents elements characteristic of each theme; assigning to each identified element a coefficient (R) 
representing the relevance of said element relative to the corresponding theme; and, for each document (50) to be classified, iden- 
tifying said elements characteristic of each theme it contains, and for each theme which corresponds to them, computing from the 
coefficient assigned to said elements, the value of a characteristic representative the relevance to the theme for said document (50) 
to determine whether said document is related or not to said theme. 
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(57) Abrege: Ce proc&ie' de classification thematique de documents, notamment pour la constitution ou la mise a jour de bases de 
donnees thematiques (42) pour moteur de recherche, comprend les etapes de selection de documents representatifs de chaque theme, 
identification, dans les documents selectionnes, des elements caracteristiques de 
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chaque theme, affectation, a chaque element identifie*, d'un coefficient (R) representatif de la pertinence de cet element vis a vis du 
theme correspondanf et, pour chacve document (50) a classifier, identification desdits elements caractenstiques de chaque theme 
qu'il contient et, pour chaque theme qui leur correspond, calcul, a partir du coefficient affecte" a ces elements, de la valeur d'une 
caracteristique representative de la pertinence du theme pour ce document (50) pour decider si ce document porte ou non sur ce 
theme. 
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Procede de classification thematique de documents, module de 
classification thematique et moteur de recherche incorporant 
un tel module 

La presente invention se rapporte a un procede de 
classification thematique de documents, destine, en 
particulier , a la constitution ou la mise a jour de bases 
de donnees thematiques, en particulier pour moteur de 
5 recherche. 

Elle se rapporte egalement a un module de 
classification thematique de documents et a un moteur de 
recherche equipe d'un tel module de classification 
thematique . 

10 On connait, a ce jour, principalement deux outils 

inf ormatiques permettant de rechercher des documents sur 
un reseau inf ormatique, comme par exemple, le r6seau 
Internet. 

Ces outils sont le moteur de recherche et le guide. 
15 Un moteur de recherche est un outil permettant 

d'extraire d f une information, principalement textuelle, 
les mots ou termes qui la xepresentent le mieux et de les 
stocker dans des bases de donnees, egalement connues sous 
1 1 appellation "base d ' index" . 
20 De telles bases d ! index sont generalement mises cl 

jour relativement frequemment. 

En reponse a une requete formulee par un 
utilisateur, ce meme outil parcourt les bases d 1 index 
afin d r identifier les termes les plus pertinents par 
25 rapport a ceux de la requete, puis de trier les 
informations a fournir en retour. 

L 1 autre technique de recherche de documents sur un 
reseau inf ormatique consiste a utiliser un guide. Cet 
outil propose des recherches par categories, les pages de 
30 documents etant classees manuellement par des 
documentalistes . 

Ces types d f outil presentent un certain nombre 
d 1 inconvenients . 

Tout d'abord, les moteurs de recherche ne proposent 
35 pas de classement de pages de document par categories . En 
effet, les pages fournies en reponse a une requete ne 
sont pas typees . Ainsi, des requetes ambigues peuvent 
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donner lieu a des reponses tres diverses, ressenties 
comme du bruit par 1 1 utilisateur . 

Les guides, au contraire, permettent de fournir a un 
utilisateur des reponses typees, c'est a dire portant sur 
5 le ou les memes themes que la requete . 

Cependant, le classement manuel des pages de 
document implique de forts couts de creation et de mise a 
jour et ne permet 1 f indexation que d'un nombre limite de 
pages- Par consequent, certaines requetes n'obtiennent 
10 pas de reponse. 

Le but de I 1 invention est de palier les 
inconvenients des moteurs de recherche et des guides. 

Elle a done pour objet un procede de classification 
thematique de documents, notamment pour la constitution 
15 ou la mise a jour de bases de donnees thematiques pour 
moteur de recherche, caracterise en ce qu'il comporte les 
etapes suivantes : 

- on selectionne un echantillon de documents 
representatif s de chaque theme ; 

- on identifie, dans les documents selectionnes, des 
elements caracteristiques de chaque theme ; 

- on affecte, a chaque element identifie, un 
coefficient representatif de la pertinence de cet element 
vis a vis du theme correspondant / 

- pour chaque document a classifier, on identifie 
lesdits elements caracteristiques de chaque theme qu ! il 
contient et, pour chaque theme qui leur correspond, on 
calcule, a partir du coefficient affecte a ces elements, 
la valeur d'une caracteristique representative de la 
pertinence du theme pour ce document, pour decider si ce 
document porte ou non sur ce theme, lesdites etapes 
d' identification et de calcul etant realisees 
automatiquement pour chaque document recupere . sur un 
reseau informat: rue ; 

- on clas. les , -_ s recuperes en fonction des 

themes qui y sont a . rdes ; et 
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l'on stocke les documents classes par themes dans 
des bases de donnees interrogeables a partir de themes 
contenus dans une requete ; 

et en ce que'l'etape d • affectation dudit coefficient 
5 a chaque element identifie comprend les etapes suivantes, 
pour chaque theme : 

- calcul de la frequence de 1' element dans les 
documents selectionnes portant sur ce theme ; 

- calcul de la frequence de 1' element dans les 
10 documents selectionne ne portant pas sur ce theme ; et 

- calcul du rapport entre les frequences calculees . 
On classe ainsi les documents recuperes sur un 

reseau informatique en fonction des themes qui y sont 
abordes et ce, de fagon automat ique. 
15 Le precede de classification selon 1- invention peut 

en outre comporter une ou plusieurs des caracteristiques 
suivantes, prises isolement ou selon toutes les 
combinaisons techniquement possibles : 

- il comporte en outre une etape de tri des themes 
20 selon une arborescence de themes et par ordre decroissant 

des coefficients ; 

- 1' etape de calcul de la caracteristique 
representative de la pertinence du theme d'un document a 
classifier comprend les etapes suivantes pour chaque 

25 theme : 

. on lit la valeur du rapport desdites frequences 
de chaque element representatif du theme extrait du 
. document, 

. on multiplie les valeurs lues, et 
30 ■ on affe <=te le resultat de cette multiplication a 

la valeur de ladite caracteristique ; 

~ l'on decide que le document porte sur un theme si 
la valeur de ladite caracteristique representative de la 
pertinence du theme pour ce document est superieure a une 
35 valeur de seuil ; 

- la valeur de seuil est elaboree, pour chaque 
theme, a partir desdits rapports de frequence, selon la 
relation suivante : 
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score . seuil ch en,e = (Rmoy)ntheme 
dans laquelle : 

score - seuil th6me designe la valeur de seuil 
Rmoy represente la valeur moyenne des rapports de 

frequences R des elements du theme et, 
ntheme designe un nombre predetermine ; 

- selon une variante, la valeur de seuil est reglee 
manuellement ; 

- les etapes d' identification des elements 
caracteristiques de chaque theme contenu dans un document 
sont realisees au moyen d'une table de hachage ; et 

- on calcule, pour chaque element de vocabulaire 
d'une requete formulee par un utilisateur, des 
coefficients caracteristiques de 1' element par rapport a 
chaque theme connu et l'on associe a chaque element les 
coefficients et les themes correspondants, de sorte que 
lesdits coefficients atteignent une valeur minimale. 

Lors de la recherche des entrees d' index, c'est a 
dire au cours de ia recherche des documents 
20 correspondants a la requete, il est ainsi possible 
d'acceder directement aux themes lies a chaque element et 
aux coefficients correspondants que l'on combine par 
multiplication afin de determiner un classement des 
themes lies a la requete entiere. 
25 L' invention a egalement pour objet un module de 

classification thematique de documents, notamment pour 
moteur de recherche, caracterise en ce qu'il comporte une 
. unite centrale de traitement comprenant des moyens de 
comparaison d' elements extraits de chaque document avec 
30 des elements caracteristiques de differents themes, 
affectes chacun d'un coefficient representatif de la 
pertinence de cet element pour un theme correspondant , et 
des moyens de calcul de la valeur d'au moins 'une 
caracteristique representative de la. pertinence d'un 
theme pour ce document, a partir des coefficients desdits 
elements caracteristiques qu'il contient, pour decider si 
ce document porte ou non sur ce theme, ladite unite 
centrale etant raccordee a des moyens de stockage de 
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documents classes par themes, interrogeables a partir de 
themes contenus dans une requete, et en ce qu'il comporte 
des moyens de calcul de la frequence de 1' element dans 
les documents selectionnes portant sur ce theme, des 
5 moyens de calcul de la frequence de 1' element dans les 
documents selectionnes ne portant pas sur ce theme, et 
des moyens de calcul du rapport entre les frequences 
calculees . 

Un autre objet de 1 T invention est un moteur de 
10 recherche de documents sur un reseau inf ormatique , 
comprenant un module d' indexation pour la creation et la 
mise a jour de bases de donnees thematiques, a partir de 
documents recuperes sur le reseau inf ormatique , et un 
module d 1 interrogation des bases de donnees adaptees pour 
15 fournir des references de documents correspondant a une 
requete regue en entree, caracterise en ce qu'il comporte 
en outre un module de classification thematique tel que 
definit ci-dessus, associe au module d 1 indexation . 

D'autres caracteristiques et avantages ressortiront 
20 de la description suivante, donnee uniquement a titre 
d'exemple, et faite en reference aux dessins annexes sur 
lesquels : 

la Fig. 1 est un organigramme montrant les 
principales phases de f onctionnement d ! un module de 
25 classification thematique de documents selon l f invention, 
pour moteur de recherche ; 

la Fig.- 2 est un organigramme illustrant la 
. methode de calcul des elements caracteristiques de themes 
; et 

30 - la Fig. 3 est un organigramme montrant la methode 

de calcul des themes d'un document. 

Sur la Fig. 1, on a represents les principales 
phases du procede de classification thematique de 
documents selon 1' invention. 

35 II est destine a permettre le classement de 

documents recuperes sur un reseau inf ormatique, en 
fonction de themes qui y sont abordes. Par exemple, il 
peut etre mis en oeuvre au sein d'un moteur de recherche. 
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Dans ce cas, il intervient des le processus 
d 1 indexation, mais egalement au cours du traitement d'une 
requete formulee par un utilisateur, pour permettre de 
determiner tous les themes abordes dans cette requete. 
5 On congoit toutefois que d'autres applications 

peuvent etre envisagees. Par exemple, ce procede peut 
etre mis en oeuvre au niveau d T un point d'acces d'un 
reseau de postes utilisateurs a un reseau Internet, afin 
de determiner la nature des pages Web recuperees par les 
10 utilisateurs et interdire ou autoriser, par filtrage des 
requetes, certains themes, par exemple, contraires a 
1 1 ordre public et aux bonnes moeurs, ou encore calculer 
'des statistiques sur les centres d' interet des 
utilisateurs . 

15 Pour proceder a cette classification, le procede 

comporte deux phases distinctes, a savoir une premiere 
phase prealable d 1 acquisition du vocabulaire thematique 
de corpus de documents et d 1 affectation, a chaque mot du 
vocabulaire, d'une valeur de seuil a partir de laquelle 

20 on decide qu'un document, contenant ce mot, porte sur le 
theme correspondant , ainsi qu 1 une deuxieme phase de 
classification proprement dite, au cours de laquelle un 
document recupere sur le reseau est automatiquement 
classifie en fonction des elements caracterist iques qu'il 

25 contient. 

Par exemple cette deuxieme phase intervient 
periodiquement, seuls des documents nouvellement crees ou 
. modifies etant classifies. 

La description de la premiere phase d f acquisition du 
30 vocabulaire thematique va maintenant etre en reference 
aux Figs. 1 a 3. 

Comme on le voit sur la Fig. 1, cette phase debute 
par une etape 10 de selection manuelle, a partir d'un 
ensemble 12 d' echantillons (ou corpus) de documents 
35 representatif s de chacun des themes A a Z utilises pour 
classer les documents au cours de la deuxieme phase. 

Ainsi, a l'issu de cette etape 10 de selection 
manuelle, on dispose d'un ensemble de corpus de 
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documents, tels que 14, portant chacun sur un theme 
(theme A,... theme Z) . Bien entendu 1' etape de selection 
peut egalement etre effectuee par tout moyen autre que 
manuel. 

5 Au cours de cette etape 10 de selection, on cree 

egalement un corpus 16 de documents ne portant sur aucun 
des themes A a Z et on definit une nomenclature 18 des 
themes A a Z, c'est a dire la liste de ces themes 
associes a des sous-themes s ! y rapportant. 
10 Lors de l'etape 20 suivante, ces elements sont 

presentes en entree d'un module de classification 
thematique en vue d'extraire de chaque document les 
elements caracteristiques de chaque theme et de les 
affecter chacun d'un coefficient representatif de leur 
15 pertinence vis a vis d'un theme correspondant. 

Par exemple ce module de classification thematique 
se presente sous la forme d'un module specif ique d'un 
moteur de recherche, associe a" un module d' indexation 
realisant la creation ou la mise a jour des bases de 
20 donnees thematiques. 

II peut egalement etre agence sous la forme d'un 
module specif ique prevu au niveau d'un point d'acces a un 
reseau inf ormatique, en particulier a un reseau Internet. 

Ce module comprend les moyens logiciels appropries 
pour realiser 1' extraction des elements caracteristiques 
de chaque theme et pour les affecter d'un coefficient 
representatif de leur pertinence vis a vis de differents 
themes, comme cela va etre decrit en detail par la suite. 

Au cours de cette etape 20, le module de 
classification extrait, de chaque document selectionne, 
les elements caracteristiques de chaque theme. 

Cette extraction s'effectue en utilisant un outil 
inf ormatique de type classique. II ne sera done pas 
decrit par la suite. 

On dispose a I'issu de cette etape 20, de listes 
d'elements caracteristiques des themes A a Z, telles que 
22. 



25 



30 



35 



WO 01/22279 



8 



PCT/FR00/02640 



10 



15 



En reference a la Fig. 2, cette procedure 
d' identification du vocabulaire caracteristique de chaque 
theme s'effectue successivement pour chaque element 
extrait des documents de chacun des corpus 14 et 16. 

Au cours d'une premiere etape 24, on vide un tableau 
regroupant 1' ensemble des themes candidats, c'est a dire 
les themes susceptibles de corresponds a 1 ' element 
extrait . 

Lors de 1* etape 2 6 suivante, on procede, pour chaque 
theme, a un calcul d'un coefficient R representatif de la 
pertinence de cet element vis a vis de ce theme. 

Pour proceder a ce calcul, on calcule tout d'abord 
la frequence p de 1' element dans les documents portant 
sur ce theme, ainsi que la frequence q de cet element 
dans les documents ne portant pas sur ce theme. 

On procede ensuite au calcul du coefficient R, 
constitue par le rapport entre ces frequences p et q. 

Lors de 1' etape 28 suivante, on verifie si les 
caracteristiques p, q et R se situent a l'interieur de 
20 limites predeterminees . 

Si tel n'est pas le cas, on procede au traitement de 
1' element suivant. 

Si tel est le cas, on ajoute le theme dans le 
tableau des themes candidats avec un score egal au 
25 coefficient R (etape 30) . 

S'il reste des elements a traiter (etape 32), la 
procedure retourne a 1 * etape 24 precedente . 

Dans le cas contraire, cette procedure s'acheve. 
On notera que, de preference, apres remplissage du 
tableau des themes candidats, celui-ci est trie par ordre 
decroissant des scores R. On notera egalement que pour 
tout theme candidat, jusqu'a un nombre maximum voulu, on 
ajoute un nouvel element recupere dans la liste des 
elements caracteristiques de ce theme, en se limitant a 
un nombre maximum voulu des n meilleurs elements par 
theme choisi er fonction de leur score R. 

En se referant a nouveau a la Fig. l, lors de 
1 'etape 34 suivante, le module de classification 
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thematique procede a un calcul automatique, au moyen d'un 
algorithme approprie, d'une valeur de seuil correspondant 
a un seuil minimum a atteindre pour determiner si un 
document comprenant un element caracteristique d'un theme 

5 porte ou non sur ce theme. 

Pour proceder a ce calcul, le module de 
classification procede tout d f abord a un calcul de la 
valeur moyenne R^oy des rapports R des elements 
caracteristiques de chaque theme (etape 36) . 

10 II procede ensuite au calcul de la valeur de seuil 

score - seuilth^mef selon la relation suivante : 

score _ seuil t h6me = (RmoyJntheme 
dans laquelle ntheme designe un nombre predetermine 
choisi par exemple egal a 5 pour la plupart des themes. 

15 On voit alors sur la Fig. 1, qu 1 a l'issu de ce 

calcul automatique des scores a atteindre, on dispose de 
listes, telles que 40, d' elements caracteristiques de 
chaque theme A a Z, affectes chacun d'un score a 
atteindre, c'est a dire d'une valeur de seuil a partir de 

20 laquelle on considere qu'un document porte sur ce theme. 

Apres cette phase d' acquisition du vocabulaire 
thematique, realisee^ a partir de corpus de documents 
representatif s de themes, la deuxieme phase de 
classification thematique proprement dite peut etre 

25 effectuee, dans le but de constituer des bases de donnees 
thematiques, designees par la reference numerique 
generale 42, a partir de documents collectes 
. automatiquement sur le reseau informatique par des 
robots, tels que 44. 

30 Ces documents sont presentes en entree du module de 

classification thematique, qui re?oit egalement une 
indication de la nomenclature 18 des themes, ainsi que 
les elements disponibles a l'issu de 1' etape 34 
mentionnee precedemment . Ce module procede a un calcul 

35 automatique des themes sur lesquels porte le document 
(etape 46) . 
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Pour ce faire, il comporte tous les moyens logiciels 
appropries pour realiser les operations mentionnees ci- 
dessous. 

En reference a la Fig. 3, au cours d'une premiere 
5 etape 48 de cette procedure, le module d f indexation 
extrait de chaque document 50 recupere par les robots 44, 
les elements caracteristiques de themes qu'il contient. 

Cette etape s'effectue, par exemple, en utilisant 
une table de hachage, pour rechercher rapidement dans les 
10 listes d' elements caracteristiques les elements contenus 
dans chaque document . ■ 

Apres extraction de ces elements on identifier parmi 
ceux-ci, les elements caracteristiques de themes contenus 
dans les listes 40. 
15 Pour chaque element identifie, le module de 

classification procede ensuite a un calcul d'une valeur 
caracteristique representative de la pertinence de chaque 
theme pour ce document, a partir du coefficient affecte a 
cet element. 

20 Pour ce faire f lors de 1' etape 52 suivante, une 

variable "score-theme" , representative du score du 
document dans un theme donne est positionnee a 1, et ce 
pour tous les themes. 

Ensuite, pour tout element du document, et pour 
25 chaque theme de 1 1 arborescence des themes, si 1 T element 
se situe parmi la liste des elements caracteristiques du 
"theme, on lit le score R, c'est a dire la valeur du 
- rapport des frequences pour chaque element et on 
multiplie les valeurs lues du score R pour chacun de ces 
30 elements. 

Le resultat de cette multiplication est ensuite 
affecte a la valeur de la caracteristique score 
theme (etape 54). 

On decide alors que les themes reconnus dans le 
35 document 50 sont ceux dont la caracteristique score 

theme atteint ou depasse le score a atteindre pour ces 
themes (etape 56) . 
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On dispose alors, a l'issu de cette procedure, de 
l 1 ensemble 57 des themes sur le ou lesquels porte le 
document 50 recupere . 

On concpoit done que cette procedure de calcul 
5 automatique des themes des documents recuperes par les 
robots 4 4 permet au module d f indexation d'un moteur de 
recherche de classer ces documents en fonction des themes 
abordes et de constituer les bases 42 de donnees 
thematiques. 

10 Une telle procedure de calcul automatique de theme 

de documents peut egalement etre utilisee pour determiner 
"les themes abordes dans une requete formulee par un 
utilisateur. 

Pour ce faire, a partir de cette requete, pour 
15 chacun des elements du vocabulaire d' interrogation 
utilises dans la requete, on calcule les coefficients 
caracteristiques de cet element par rapport a chacun des 
themes connus et 1'on associe a chacun de ces elements 
les coefficients et themes de telle maniere que les 
20 coefficients atteignent une valeur minimale. 

Lors de la recherche des entrees d' index 
correspondant aux elements d' une requete, e'est a dire 
pour le calcul des resultats, on accede ainsi directement 
au theme lie aux elements ainsi qu'a leur coefficient, 
25 que 1/ on combine par multiplication, selon la merne 
procedure que celle decrite plus haut, afin de determiner 
'un classement des themes lies a la requete entiere. 

On conqroit done que cette procedure permet de 
proposer^ a un utilisateur de preciser sa requete, par 
30 exemple, Ibrsque celle-ci est formulee de fagon vague. 

On concjoit egalement que cette procedure, qui permet 
d 1 identifier les themes contenus dans une requete, rend 
possible d'effectuer une surveillance des requetes 
utilisateurs afin d'etablir des calculs statistiques 
35 permettant de definir des profils d ' utilisateurs en 
fonction des requetes. 

On saisira alors que 1' invention qui vient d'etre 
decrite peut etre utilisee pour la recherche de themes 
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contenus dans des pages recuperees sur un reseau 
informatique, pour la determination de themes contenus 
dans une requete formulee par un utilisateur et, a partir 
de cette determination, pour le filtrage des requetes et 
egalement des pages recuperees, afin d' interdire la 
formulation de requete ou la recuperation de pages 
portant sur des themes predetermines interdits, et pour 
1' elaboration des profils d' utilisateurs . 

On notera cependant que dans le cas de la 
determination des themes contenus dans une requete, cette 
derniere est consideree comme constituant un document 
presente en entree du module de classification thematique 
selon 1' invention. 

L' invention n'est pas limitee au mode de realisation 
15 envisagee. 

En effet, il est egalement possible, en variante, de 

regler manuellement la valeur de seuil a partir de 

laquelle on decide qu'un document porte ou non sur un 
theme donne . 
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RE VEND I CAT IONS 

1. Procede de classification thematique de 
documents, notamment pour la constitution ou la mise a 
jour de bases de donnees thematiques pour moteur de 
recherche, caracterise en ce qu'il cotnporte les etapes 
suivantes : 

- on selectionne un echantillon de documents 
representatifs de chaque theme ; 

- on identifie, dans les documents selectionnes, des 
elements caracteristiques de chaque theme ; 

- on affecte, a chaque element identifie, un 
coefficient (R) representatif de la pertinence de cet 
element vis a vis du theme correspondant ; 

- pour chaque document (50) a classifier, on 
15 identifie lesdits elements caracteristiques de chaque 

theme qu'il contient et, pour chaque theme qui leur 
correspond, on calcule, a partir du coefficient affecte a 
ces elements, la valeur d'une caracteristique 
representative de la pertinence du theme pour ce document 
(50), pour decider si ce document porte ou non sur ce 
theme, lesdites etapes d' identification et de calcul 
etant realisees automatiquement pour chaque document 
recupere sur un reseau informatique ; 

- on classe les documents recuperes en fonction des 
25 themes qui y sont abordes / et 

- l'on stocke les documents classes par themes dans 
des bases de donnees interrogeables a partir de themes 

. contenus dans une requete ; 

et en ce que 1 ' etape d ' affectation dudit coefficient 
a chaque element identifie comprend les etapes suivantes, 
pour chaque theme : 

- calcul de la frequence de 1 'element dans les 
documents selectionnes portant sur ce theme, 

- calcul de la frequence de 1 '.element dans les 
documents selectionne ne portant pas sur ce theme, et 

- calcul du rapport entre les frequences calculees. 
2. Procede selon la revendication 1, caracterise en 

ce qu'il comporte en outre une etape de tri des themes 
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selon une arborescence de themes et par ordre decroissant 
des coefficients. 

3. Procede selon la revendication 1 ou 2, 
caracterise en ce que l'etape de calcul de la 

5 caracteristique representative de la pertinence du theme 
d'un document a classifier comprend les etapes suivantes, 
pour chaque theme : 

on lit la valeur du rapport (R) desdites 
frequences de chaque element representatif du theme 
10 extrait du document, 

on multiplie les valeurs lues, 'et 
- on affecte le resultat de cette multiplication a 
la valeur de ladite caracteristique. 

4. Procede selon 1'une quelconque des revendications 
15 1 a 3, caracterise en ce que 1 1 on decide que le document 

porte sur un theme si la valeur de ladite caracteristique 
representative de la pertinence du theme pour ce document 
est superieure a une valeur de seuil. 

5. Procede selon la revendication 4, caracterise en 
20 ce que la valeur de seuil est elaboree, pour chaque 

theme, a partir desdits rapports de frequence, selon la 
relation suivante : 

score _ seuil th eme = (Rmoy) ntheme 
dans laquelle : 
25 score - seuil ch e me designe la valeur de seuil 

R moy represente la valeur moyenne des rapports de 

frequences R des elements du theme et, 
ntheme designe un nombre predetermine. 

6. Procede selon la revendication 4, caracterise en 
30 ce que la valeur de seuil est reglee manuellement . 

7. Procede selon 1 f une quelconque des revendications 
1 a 6, caracterise en ce que les etapes d 1 identification 
des elements caracteristiques de chaque theme contenu 
dans un document (50) sont realisees au ■ moyen d'une table 

• 35 de hachage . 

E. Procede se.on l 1 une quelconque des revendications 
1 a 7, caracterise en ce que 1'on v. alcule, pour chaque 
element de vocabulaire d' une requete formulee par 
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1' utilisateur , des coefficients caracteristiques de 
1' element par rapport a chaque theme connu et 1'on 
associe a chaque element les coefficients et les themes 
correspondant, de sorte que lesdits coefficients 
5 atteignent une valeur minimale . 

9. Module de classification thematique de documents 
(50), notamment pour moteur de recherche, caracterise en 
ce qu'il comporte une unite centrale de traitement 
comprenant des moyens de comparaison d 1 elements extraits 

10 de chaque document avec des elements caracteristiques de 
differents themes, affectes chacun d'un coefficient (R) 
. representatif de la pertinence de cet element pour un 
theme correspondant, et des moyens de calcul de la valeur 
d'au moins une caracteristique representative de la 

15 pertinence d'un theme pour ce document, a partir des 
coefficients desdits elements caracteristiques qu'il 
contient, pour decider si ce document (50) porte ou non 
sur ce theme, ladite unite centrale etant raccordee a des 
moyens de stockage de documents classes par themes, 

20 interrogeables a partir de themes contenus dans une 
requete, et en ce qu' il comporte des moyens de calcul de 
la frequence de 1' element dans les documents selectionnes 
portant sur ce theme, des moyens de calcul de la 
frequence de 1' element dans les documents selectionnes ne 

25 portant pas sur ce theme, et des moyens de calcul du 
rapport entre les frequences calculees. 

10. Utilisation d'un module de classification 
- thematique de documents selon la revendication 9 pour la 

determination de themes contenus dans une requete 
30 formulee par un utilisateur. 

11. Utilisation d'un module de classification 
thematique de documents selon la revendication 9 pour la 
determination de themes contenus dans des pages 
recuperees sur un reseau informatique ou dans une requete 

35 formulee par un utilisateur et le filtrage des documents 
recuperes pour interdire la consultation de pages portant 
sur un ou des themes predetermines. 



10 



WO 01/22279 PCT/FROO/02640 



12. Utilisation d'un module de classification thema- 
tique de documents selon la revendication 9 pour la de- 
termination de themes contenus dans une requete formulee 
par un utilisateur et 1 ' elaboration de profils d'utilisa- 
teurs a partir des themes sur lesquels porte la requete. 

13. Moteur de recherche de documents sur un reseau 
informatique, comprenant un module d T indexation pour la 
creation et la mise a jour de bases de donnees 
thematiques, a partir de documents recuperes sur le 
reseau informatique, et un module d 1 interrogation des 
bases de donnees thematiques adaptees pour fournir des 
references de documents correspondant a une requete regue 
en entree, caracterise en ce qu'il comporte en outre un 
module de classification thematique selon la 

15 revendication 9, associe au module d r indexation . 
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de recherche intemationale. 
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Extrait de 1 'Internet: 

<URL : http : //www . scope . gmd . de/i nf o/www6/pos 
ters/725/web_search . html > 
'extrait le 2000-06-30! 
le document en entier 

-/- 



1,8-11 



1,2,9,13 



m 



Voir ia suite du cadre C pour la fin de la liste des documents 



Les documents de families de brevets sort indiques en annexe 



° Categories speclaJes de documents cites: 

■A' document definissant I'etat general de la technique, non 

considers com me particulierement pertinent 
■E" document anteneur, mais publie a la date de depot international 

ou apres cette date 
V document pouvant jeter un doute sur une revendicatlon de 

priortte ou cite pour determiner la date de publication dune 

autre citation ou pour une raison speciale (telle qu'indiquee) 
"O" document ee referent a une divulgation orale, a un usage, a 

une exposition ou tous autres moyens 
"P" document publie avant la date de depot Internationa], mais 

posterieurement a la date de priorite revendquee 



T a document ulterieur public apres la date de depot international ou ia 
date de priorite et n'appartenenant pas a I'etat de la 
technique pertinent, mais cite pour oomprendre le principe 
ou la theone constttuant ta base de (Invention 

"X" document particulierement pertinent; I'inven tion revendiquee ne peut 
etre conslderee comme nouvelle ou com me impii quant une activite 
inventive par rapport au document consioere isolement 

•Y' document particulierement pertinent; I'inven tion revendiquee 
ne peut etre conslderee comme impliquant une activite inventive 
loreque le document est associe a un ou plusieurs autres 
documents de meme nature, cette combmaison etant evidente 
pour une personne du metier 

document qui fait partle de la meme famille de brevets 
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Cattgorie' Identification des documents cites, avec.le cas echeant, l lncflcatlondos 



>C^ 



poffttnonte 



no. des neve indications viaees 



A / 



A ' 



CHAKRABARTI S ET AL: "Scalable feature 
selection, classification and signature 
generation for organizing large text 
databases into hierarchical topic 
taxonomies" 

VLDB JOURNAL , AUG. 1998, SPRINGER-VERLA6, 
GERMANY, 

vol. 7, no. 3, pages 163-178, XP002141635 

ISSN: 1066-8888 

abrege 

page 164, colonne de droite, ligne 30 
-page 165, colonne de gauche, ligne 24 
page 166, colonne de droite, ligne 6 - 
ligne 15 

page 168, colonne de droite, ligne 6 -page 
171, colonne de gauche, ligne 40; figures 
2-5 

page 172, colonne de droite, ligne 15 - 
ligne 48 

M0 97 38382 A (BLOCK HANS ULRICH ; SIEMENS 
AG (DE); BRUECKNER THOMAS (DE)) 
16 octobre 1997 (1997-10-16) 
abrege 

page 3, ligne 31 -page 4, ligne 27 

page 5, ligne 1 -page 7, ligne 13; figures 

1-4 

EP 0 822 503 A (MATSUSHITA ELECTRIC IND CO 
LTD) 4 fevrier 1998 (1998-02-04) 
abrege 

page 2, ligne 28 - ligne 52 

page 4, ligne 23 -page 5, ligne 16; figure 

1 
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12,13 



1,4,9 



8,10,11 
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1. Le present rapport d'examen preliminaire international, elabli par I'administaration chargee de I'examen preliminaire 
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2. Ce RAPPORT comprend 4 feuilles, y compris la presente feuille de couverture. 
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ete modifiees et qui servent de base au present rapport ou de feuilles contenant des rectifications faites aupres de 
I'administration charged de I'examen preliminaire international (voir la regie 70.16 et Instruction 607 des Instructions 
administratives du PCT). 

Ces annexes comprennent 6 feuilles. 



3. Le present rapport contient des indications relatives aux points suivants: 
I IS Base du rapport 



II 
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Priority 


III 
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Absence de formulation d'opinion quant a la nouveaute, I'activite inventive et la possibility 
d'application industrielle 


IV 


□ 


Absence d'unite de I'invention 


V 




Declaration motivee selon I'article 35(2) quant a la nouveaute, I'activite inventive et la possibility 
d'application industrielle; citations et explications a I'appui de cette declaration 


VI 
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Certains documents cites 


VII 
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Irregularis dans la demande intemationale 


VIII 
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Observations relatives a la demande intemationale 



Date de presentation de la demande d'examen preliminaire 
intemationale 
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I'examen preliminaire international: 

^ Office europeen des brevets 
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Fonctionnaire autorise ^SSS^T^v 
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N° de telephone +49 89 2399 21 72 



Formulaire PCT/I PEA/409 (feuille de couverture) Qanv J er 1994) 



RAPPORT D EXAMEN 




PRELIMINAIRE INTERNATIONAL Demande internationale n° PCT/FR00/02640 



I. Base du rapport 

1 . En ce qui concerne les elements de la demande internationale (les feuilles de remplacement qui ont 6t6 remises 
a I'office recepteur en rSponse a une invitation faite conformement a f'article 14 sont consider4es dans le present 
rapport comme "initialement depos£es u et ne sont pas jointes en annexe au rapport puisqu'elles ne contiennent 
pas de modifications (regies 70. 16 et 70.17)): 

Description, pages: 

1,3-12 version initiate 

2,2a regue(s) le 03/12/2001 avec la lettre du 26/1 1/2001 



Revendications, N°: 

1 -13 re$ue(s) le 03/12/2001 avec la lettre du 26/1 1/2001 

Dessins, feuilles: 

1/3-3/3 version initiale 



2. En ce qui concerne la langue, tous les elements indiqu^s ci-dessus etaient k la disposition de I'administration ou 
lui ont ete remis dans la langue dans laquelle la demande internationale a ete deposee, sauf indication contraire 
donnee sous ce point. 

Ces elements etaient a la disposition de I'administration ou lui ont ete remis dans la langue suivante: , qui est : 

□ la langue d'une traduction remise aux fins de la recherche internationale (selon la regie 23.1(b)). 

□ la langue de publication de la demande internationale (selon la regie 48.3(b)). 

□ la langue de la traduction remise aux fins de Texamen preliminaire internationale (selon la regie 55.2 ou 
55.3). 

3. En ce qui concerne les sequences de nucleotides ou d'acide amines divulguees dans fa demande 
internationale (le cas echeant), I'examen preliminaire internationale a ete effectue sur la base du listage des 
sequences : 

□ contenu dans la demande internationale, sous forme ecrite. 

□ depose avec la demande internationale, sous forme dechiffrable par ordinateur. 

□ remis ulterieurement ci I'administration, sous forme ecrite. 

□ remis ulterieurement a I'administration, sous forme dechiffrable par ordinateur. 

□ La declaration, selon laquelle le listage des sequences par 6crit et fourni ulterieurement ne va pas au-del& 
de la divulgation faite dans la demande telle que deposee, a 6te fournie. 

□ La declaration, selon laquelle les informations enregistrees sous dechiffrable par ordinateur sont identiques h 
celles du listages des sequences Presents par ecrit, a ete fournie. 
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4. Les modifications ont entraine I'annulation : 

□ de la description, pages : 

□ des revendications, n os : 

□ des dessins, feuilles : 

5. □ Le present rapport a ete formula abstraction faite (de certaines) des modifications, qui ont 6te consid6rees 

comme allant au-dela de l'expos<§ de I'invention tel qu'il a ete d6pos6, comme il est indiqu6 ci-apres (r&gle 
70.2(c)) : 

(Toute feuille de remplacement comportant des modifications de cette nature doit etre indiquGe au point 1 et 
annexee au present rapport) 



6. Observations complementaires, le cas echeant : 



V. Declaration motivee selon I'article 35(2) quant a la nouveaute, I'activite inventive et la possibility 
d'application industrielle; citations et explications a I'appui de cette declaration 

1. Declaration 

Nouveaute Oui : Revendications 1-13 

Non : Revendications 

Activite inventive Oui: Revendications 1-13 

Non : Revendications 

Possibility d'application industrielle Oui: Revendications 1-13 

Non : Revendications 



2. Citations et explications 
voir feuille separee 



Formulaire PCT/IPEA/409 (cadres l-VIII, feuille 2) fluillet 199R) 



RAPPORT D'EXAMEN^^ 
PRELIMINAIRE INTERNATIONAL - 



Demande internatioffale n° PCT/FR00/02640 
FEUILLE SEPAREE 



Concernant le point V 

Declaration motivee selon la regie 66.2(a)(ii) quant a la nouveaute, I'activite 
inventive et la possibility d'application industrielle; citations et explications a 
I'appui de cette declaration 

II est fait reference au document suivant: 

D1 : US-A-5 625 767 (BARTELL BRIAN ET AL) 29 avril 1997 (1997-04-29) 

Les trois revendications independantes 1, 9 et 13 sont adressees a la classification 
thematique de documents, notamment pour moteur de recherche (concept inventive 
unifiant). 

La solution proposee est consideree comme impliquant une activite inventive (article 
33(3) PCT), pour les fait elle est plus automatique de la solution proposee dans D1, qui 
est consideree I'arte anterieure plus proche et qui requiert une classification prealable 
manuelle des documents. 

Les revendications dependantes 2-8 et 10-12 contiennent des caracteristiques 
supplementaires et satisfont done egalement, en tant que telles, aux conditions 
requises par le PCT en ce qui concerne la nouveaute et I'activite inventive. 



Formulaire PCT/Feuille s6par6e/409 (feuille 1) (OEB-avril 1997) 
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REVENDICATIONS 

1 Precede de classification thematique de documents, 
notamment pour la constitution ou la mise a jour de bases de 
donnees thematiques pour moteur de recherche, caracterxse en 
ce gu'il comporte les etapes suivantes : 

- on selections (10) manuellement et/ou automatxque- 
m ent un echantillon de documents represent at if s de chaque 

thdme - ; on identifie (20) automat iquement , dans les documents 
selectionnes, des elements caracteristiques de chaque th^me; 

on affecte (26) automat iquement , a chaque element 
identifie, un coefficient (R) representatif de la pertinence 
de cet element vis a vis du theme correspondant ; 

- pour chaque document (50) a classifier, on xdentxfxe 
(46) lesdits elements caracteristiques de chaque theme qu xl 
contient et, pour chaque theme qui leur correspond, on cal- 
cule a partir du coefficient affecte a ces elements, la va- 
leur d-une caracteristique representative de la pertxnence 
du theme pour ce document (50) , pour decider (56) si ce do- 
cument porte ou non sur ce theme, lesdxtes etapes 
d' identification et de calcul etant realises automatxque- 
men t pour chaque document recupere sur un reseau informatx- 

^ - on classe automat iquement les documents recuperes en 
fonction des themes qui y sont abordes ; et 

_ 1>on stocke automatiquement les documents classes 
par themes dans des bases de donnees interrogeables a partir 
de themes contenus dans une requete ; 

et en ce que l'etape d ' affectation dudit coefficient a 
chaque element identifie comprend les etapes suivantes, pour 
chaque theme : 

- calcul (26) automatique de la frequence de 1 element 
dans les documents selectionnes portant sur ce theme ; 

- calcul (26) automatique de la frequence de 1' element 
dans les documents selectionnes ne portant pas sur ce 
theme ; et 

- calcul (26) automatique du rapport entre les frequen- 
ces calculees . 
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2. Procede selon la revendication l, caracterise en ce 
gu r il comporte en outre une etape automatique de tri des 
themes selon une arborescence de themes et par ordre d6- 
croissant des coefficients. 

3. ProcSde selon la revendication 1 ou 2, caracterise 
en ce que l'£tape de calcul (52) automatique de la caract£- 
ristique representative de la pertinence du thdme d'un docu- 
ment k classifier comprend les etapes suivantes, pour chaque 
theme : 

- on lit la valeur du rapport (R) desdites frequences 
de chaque element repr^sentatif du theme extrait du docu- 
ment ; 

- on multiplie les valeurs lues ; et 

- on affecte (54) le resultat de cette multiplication a 
la valeur de ladite caracteristique . 

4. ProcSdS selon l'une quelconque des revendi cat ions 1 
& 3, caracterise en ce que l f on decide (56) automatiquement 
que le document porte sur un theme si la valeur de ladite 
caracteristique representative de la pertinence du theme 
pour ce document est superieure a une valeur de seuil. 

5. Proc6d£ selon la revendication 4, caracterise en ce 
que la valeur de seuil est elaboree automatiquement (34) , 
pour chaque theme, a partir desdits rapports de frequence, 
selon la relation suivante : 

score _ seuilthdme = (Rmoy) ntheme 
dans laquelle : 

score - seuilthdme d^signe la valeur de seuil 

R moy represente la valeur moyenne des rapports de 

frequences R des elements du thdme et, 
ntheme designe un nombre predetermine. 

6. Procede selon la revendication 4, caracterise en ce 
que la valeur de seuil est reglee manuellement . 

7. ProcSde selon l'une quelconque des revendi cat ions 1 
a 6, caracterise en ce que les etapes (46) d 1 identification 
automatique des elements caracteristiques de chaque theme 
contenu dans un document (50) sont realisees au moyen d'une 
table de hachage (48) . 

8. Procede selon l'une quelconque des revendi cat ions 1 
a 7, caracterise en ce que 1'on calcule automatiquement, 
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pour chaque element de vocabulaire d'une requite formulee 
par 1 ' utilisateur, des coefficients caracterist iques de 
1' element par rapport a chaque theme connu et l'on associe 
a chaque element les coefficients et les themes corres- 
5 pondant, de sorte que lesdits coefficients atteignent une 
valeur minimal e . 

9. Module de classification th^matique de documents 
(50) , notamment pour moteur de recherche, caracterise en ce 
qu'il comporte une unit£ centrale de traitement comprenant 
10 des moyens de comparaison d 1 elements extraits de chaque do- 
cument avec des elements caracteristiques de differents the- 
mes , affect6s chacun d'un coefficient (R) representatif de 
la pertinence de cet element pour un theme correspondant , et 
des moyens de calcul de la valeur d'au moins une caract^ris- 
15 tique representative de la pertinence d'un thdme pour ce do- 
cument, a partir des coefficients desdits .elements caracte- 
ristiques qu'il contient, pour decider si ce document (50) 
porte ou non sur ce theme, ladite unite centrale Itant rac- 
cord£e £ des moyens de stockage de documents classes par 
20 themes, interrogeables a partir de themes contenus dans une 
requete, et en ce qu'il comporte des moyens de calcul de la 
frequence de 1' element dans les documents selectionn^s por- 
tant sur ce theme, des moyens de calcul de la frequence de 
1' element dans les documents selectionnes ne portant pas sur 
25 ce theme, et des moyens de calcul du rapport entre les fre- 
quences calculees - 

10. Utilisation d'un module de classification themati- 
que de documents selon la revendication 9 pour la determina- 
tion de themes contenus dans une requete formulae par un 

30 utilisateur. 

11. Utilisation d'un module de classification themati- 
que de documents selon la revendication 9 pour la determina- 
tion de themes contenus dans des pages recuperees sur un re- 
seau informatique ou dans une requete formulae par un utili- 

35 sateur et le filtrage des documents recuperes pour interdire 
la consultation de pages portant sur un ou des themes prede- 
termines . 

12. Utilisation d'un module de classification thema- 
tique de documents selon la revendication 9 pour la de- 
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termination de themes contenus dans une reguete formulee par . 

un utilisateur et 1 ' elaboration de profils d' utilisa-teurs a 

partir des themes sur lesquels porte la requ§te. 

13. Moteur de recherche de documents sur un reseau 

5 infonnatique, comprenant un module d' indexation pour la 
creation et la mise a jour de bases de donnees thematiques, 
a partir de documents recuperes sur le reseau informatique, 
et un module d 1 interrogation des bases de donnees themati- 
ques adaptees pour fournir des references de documents 
10 correspondant a une requete regue en entree, caracterise en 
ce qu'il comporte en outre un module de classification th6- 
matique selon la revendication 9, associe au module d' in- 
dexation. 
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donner lieu a des reponses tres diverses, ressenties 
comme du bruit par 1 1 utilisateur . 

Les guides , au contraire, permettent de fournir a un 
utilisateur des reponses typees, c'est a dire portant sur 
5 le ou les memes themes que la requete. 

Une autre methode decrite dans le document US-A-5 
625 767 permet une classification thematique sur la base 
d'une analyse statistique du document. Cependant, cette 
methode requiert une classification manuelle prealable 
10 des documents. 

Le classement manuel des pages de document implique 
de forts couts de creation et de mise a jour et ne permet 
1' indexation que d'un nombre limite de pages. Par 
consequent, certaines requetes n'obtiennent pas de 
15 reponse. 

Le but de 1 ' invention est de palier les 
inconvenients des moteurs de recherche et des guides . 

Elle a done pour objet un proc6de de classification 
thematique de documents, notamment, pour la constitution 
20 ou la mise a jour de bases de donn^es thematiques pour 
moteur de recherche, caracterise en ce qu'il comporte les 
etapes suivantes : 

on selectionne un echantillon de documents 
representatif s de' chaque theme ; 
25 - on identifie, dans les documents selectionnes , des 

elements caracteristiques de chaque theme ; 

- on affecte, a chaque element identifie, un 
coefficient representatif de la pertinence de cet element 
vis a vis du theme correspondant ; et 
30 - pour chaque document a classifier, on identifie 

lesdits elements caracteristiques de chaque theme qu'il 
contient et, pour chaque theme qui leur correspond, on 
calcule, a partir du coefficient affecte £ ces elements, 
la valeur d'une caracteristique representative de la 
35 pertinence du theme pour ce document, pour decider si ce 
document porte ou non sur ce theme, lesdites etapes 
automatiquement pour chaque document recuper^ sur un 
reseau inf ormatique . 
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On classe les documents recup^res en fonction des 
themes qui y sont abord^s ; et 
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under Article 14 are referred to in this report as 'originally filed" and are not annexed to the report since they do not contain amendments .): 

[^Xj the international application as originally filed. 

| | the description, pages , as originally tiled. 



[ [ the claims, 



pages 
pages 
pages 

Nos. 
Nos. 
Nos. 
Nos. 
Nos. 



1,3-12 



2,2a 
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m , filed with the letter of 
filed with the letter of 



26 November 2001 (26.11.2001) 



1-13 



, as originally filed, 

, as amended under Article 19, 

, filed with the demand, 
, filed with the letter of 
, filed with the letter of 



26 November 2001 (26.11. 200 n 



[ | the drawings, sheets/fig 
sheets/fig 
sheets/fig 
sheets/fig 



1/3-3/3 



, as originally filed, 
, filed with the demand, 
, filed with the letter of 
, filed with the letter of 



2. The amendments have resulted in the cancellation of: 

□ 

the description, pages 

the claims, Nos. 



□ 

the drawings, sheets/fig 



3 | | This report has been established as if (some of) the amendments had not been made, since they have been considered 
— to go beyond the disclosure as filed, as indicated in the Supplemental Box (Rule 70.2(c)). 

4. Additional observations, if necessary: 
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Int^^^onai application No. 

PCT/FR 00/02640 


V. Reasoned statement under Article 35(2) with regard to novelty, inventive step or industrial applicability; 
citations and explanations supporting such statement 


1 . Statement 




Novelty (N) Claims 1 


- 1 3 YES 


i Claims 


NO 


Inventive stpn n 0 i mP [ 


— 13 VT5 

J ' I 


Claims 


NO 


Industrial applicability (IA) Claims 1 


~ 13 YES 


Claims 


NO 


2. Citations and explanations 




Reference is made to the following document: 


Dl: US-A-5 625 767 (BARTELL BRIAN ET AL) , 


29 April 1997 


(1997-04-29) . 




The three independent Claims 1, 9 and 13 


are directed to 


the classification of documents based on 


the subject- 


fields thereof, in particular for search 


engines (single 


inventive concept) . 




The solution proposed is considered to involve an 



inventive step ( PCT Article 33(3)), since it is more 
highly automated than that proposed in Dl, which is 
considered the closest prior art and which requires a 
manual pre-classif ication of the documents. 



Dependent Claims 2-8 and 10-12 contain additional features 
and also meet, as such the PCT requirements of novelty and 
inventive step. 
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